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(57) Abstract: The invention relates to a method 
of converting a voice signal spoken by a source 
speaker into a converted voice signal having acoustic 
characteristics that resemble those of a target speaker. 
The inventive method comprises the following steps 
consisting in: determining (1) at least one function 
for the transformation of the acoustic characteristics 
of the source speaker into acoustic characteristics 
similar to those of the target speaker; and transforming 
the acoustic characteristics of the voice signal to 
be converted using said at least one transformation 
function. The invention is characterised in that: (i) the 
aforementioned transformation function-determining 
step (1) consists in determining (1) a function for the 
joint transformation of characteristics relating to the 
spectral envelope and characteristics relating to the 
fundamental frequency of the source speaker; and (ii) 
said transformation comprises the application of the 
joint transformation function. 

(57) Abrege : Ce procede de conversion d'un signal 
vocal prononce par un locuteur source en un signal 
vocal converti dont les caracteristiques acoustiques 
ressemblent a celles d'un locuteur cible, comprend 
: - la determination (1) d'au moins une fonction de 
transformation de caracteristiques acoustiques du 
locuteur source en caracteristiques acoustiques proches 
de celles du locuteur cible ; et - la transformation de 
caracteristiques acoustiques du signal vocal a convertir, 
par ladite au moins une fonction de transformation. 
II est caracterise en ce que ladite determination (1) 
comprend la determination (1) d'une fonction de 

[Suite sur la page suivante J 
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Procede et systeme ameliores de conversion d'un signal vocal 

La presente invention concerne un procede de conversion d'un signal 
vocal prononce par un locuteur source en un signal vocal convert! dont les 
caracteristiques acoustiques ressemblent a celles d'un locuteur cible et un 
systeme de conversion correspondant. 
5 Dans le cadre duplications de conversion de voix, telles que les 

services vocaux, les applications de dialogue oral homme-machine ou encore la 
synthese vocale de textes, le rendu auditif est primordial et, pour obtenir une 
qualite acceptable, il convient de bien maitriser les parametres acoustiques des 
signaux vocaux. 

10 De maniere classique, les principaux parametres acoustiques ou 

prosodiques modifies lors de precedes de conversion de voix sont les parametres 
relatifs a I'enveloppe spectrale, et pour les sons voises faisant intervenir la 
vibration des cordes vocales, les parametres relatifs a une structure periodique, 
soit la periode fondamentale dont ['inverse est appele frequence fondamentale 

15 ou « pitch ». 

Les procedes de conversion de voix classiques sont essentiellement 
fondes sur des modifications des caracteristiques d'enveloppe spectrale et des 
modifications globales des caracteristiques de frequence fondamentale. 

Une etude plus recente, publiee a ['occasion de la conference 

20 EUROSPEECH 2003 sous le titre « A new method for pitch prediction from 
spectral envelope and its application in voice conversion » par Taoufik En- 
Najjar/, Olivier Rosec and Thierry Chonavel, prevoit la possibility d'affiner la 
modification des caracteristiques de frequence fondamentale en definissant une 
fonction de prediction de ces caracteristiques, en fonction de caracteristiques 

25 d'enveloppe spectrale. 

Ainsi, ce procede permet de modifier les caracteristiques d'enveloppe 
spectrale, et en fonction de celies-ci, de modifier les caracteristiques de 
frequence fondamentale. 

Ce procede presente toutefois ['inconvenient important de rendre la 

30 modification des caracteristiques de frequence fondamentale dependantes de la 
modification des caracteristiques d'enveloppe spectrale. Ainsi une erreur de 
transformation de I'enveloppe spectrale se repercute automatiquement sur la 
prediction de frequence fondamentale. 
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De plus, la mise en oeuvre d'un tel procede requiert deux etapes 
importantes de calcul, soit la modification des caracteristiques d'enveloppe 
spectrale et la prediction de la frequence fondamentale, aboutissant ainsi a 
doubler la complexity du systeme dans son ensemble. 
5 Le but de la presente invention est de resoudre ces problemes en 

definissant un procede de conversion de voix simple et plus efficace. 

A cet effet, la presente invention a pour objet un procede de 
conversion d'un signal vocal prononce par un locuteur source en un signal vocal 
converti dont les caracteristiques acoustiques ressemblent a celles d'un locuteur 
10 cible, comprenant : 

- la determination d'au moins une fonction de transformation de 
caracteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur cible, a partir d'echantillons vocaux des locuteurs 
source et cible ; et 

15 - la transformation de caracteristiques acoustiques du signal vocal a 

convertir du locuteur source, par I'application de ladite au moins une fonction de 
transformation, 

caracterise en ce que ladite determination comprend la 
determination d'une fonction de transformation conjointe de caracteristiques 
20 relatives a I'enveloppe spectrale et de caracteristiques relatives a ia frequence 
fondamentale du locuteur source et en ce que ladite transformation comprend 
I'application de ladite fonction de transformation conjointe. 

Ainsi, le procede de invention permet la modification simultanee au 
cours d'une seule operation des caracteristiques d'enveloppe spectrale et de 
25 frequence fondamentale sans creer de dependance entre celles-ci. . 
Suivant d'autres caracteristiques de I'invention : 

- ladite determination d'une fonction de transformation conjointe 

comprend : 

- une etape d'analyse des echantillons vocaux des locuteurs 
30 source et cible regroupes en frames pour obtenir, pour chaque trame 
d'echantillons d'un locuteur, des informations relatives a I'enveloppe spectrale et 
a la frequence fondamentale ; 
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- une etape de concatenation des informations relatives a 
Penveloppe spectrale et a la frequence fondamentale pour chacun des locuteurs 
source et cible ; 

- une etape de determination d'un modele representant des 
5 caracteristiques acoustiques communes des echantillons vocaux du locuteur 

source et du locuteur cible ; et 

- une etape de determination, a partir de ce modele et des 
echantillons vocaux, de ladite fonction de transformation conjointe ; 

- lesdites etapes d'analyse des echantillons vocaux des locuteurs 
10 source et cible sont adaptees pour delivrer lesdites informations relatives a 

I'enveloppe spectrale sous la forme de coefficients cepstraux ; 

- lesdites etapes d'analyse comprennent chacune la modelisation 
des echantillons vocaux selon une somme d'un signal harmonique et d'un signal 
de bruit qui comprend : 

15 - une sous-etape d'estimation de la frequence fondamentale des 

echantillons vocaux ; 

- une sous-etape d'analyse synchronisee de chaque trame 
d'echantillons sur sa frequence fondamentale ; et 

- une sous-etape d'estimation de parametres d'enveloppe 
20 spectrale de chaque trame d'echantillons. 

- ladite etape de determination d'un modele correspond a la 
determination d'un modele de melange de densites de probabilites gaussiennes; 

- ladite etape de determination d'un modele comprend : 

- une sous-etape de determination d'un modele correspondant a 
25 un melange de densite de probabilites gaussiennes, et 

- une sous-etape d'estimation des parametres du melange de 
densites de probabilites gaussiennes a partir de I'estimation du maximum de 
vraisemblance entre les caracteristiques acoustiques des echantillons des 
locuteurs source et cible et le modele ; 

30 - ladite determination d'au moins une fonction de transformation, 

comporte en outre une etape de normalisation de la frequence fondamentale des 
trames d'echantillons des locuteurs source et cible respectivement par rapport 
aux moyennes des frequences fondamentales des echantillons analyses des 
locuteurs source et cible ; 
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- Ie procede comporte une etape cTalignement temporel des 
caracteristiques acoustiques du locuteur source avec les caracteristiques 
acoustiques du locuteur cible, cette etape etant realisee avant ladite etape de 
determination d'un modele ; 

5 - le procede comporte une etape de separation dans les 

echantillons vocaux du locuteur source et du locuteur cible, des trames a 
caractere voise et des trames a caractere non voise, ladite determination d'une 
fonction de transformation conjointe des caracteristiques relatives a I'enveloppe 
spectrale et a la frequence fondamentale etant realisee uniquement a partir 
10 desdites trames voisees et le procede comportant une determination d'une 
fonction de transformation des seules caracteristiques d'enveloppe spectrale 
uniquement a partir desdites trames non voisees ; 

- ladite determination d'au moins une fonction de transformation 
comprend uniquement ladite etape de determination d'une fonction de 

15 transformation conjointe ; 

- ladite determination d'une fonction de transformation conjointe est 
realisee a partir d'un estimateur de la realisation des caracteristiques acoustiques 
du locuteur cible sachant les caracteristiques acoustiques du locuteur source ; 

- ledit estimateur est forme de Pesperance conditionnelle de la 
20 realisation des caracteristiques acoustiques du locuteur cible sachant la 

realisation des caracteristiques acoustiques du locuteur source ; 

- ladite transformation de caracteristiques acoustiques du signal 
vocal a convertir, comporte : 

- une etape d f analyse de ce signal vocal, regroupe en trames 
25 pour obtenir, pour chaque trame d'echantillons, des informations relatives a 

I'enveloppe spectrale et a la frequence fondamentale ; 

- une etape de formatage des informations acoustiques relatives 
a Penveloppe spectrale et a la frequence fondamentale du signal vocal a 
convertir ; et 

30 . - une etape de transformation des informations acoustiques 

formatees du signal vocal a convertir a I'aide de ladite fonction de 
transformation conjointe ; 
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- Ie procede comporte une etape de separation, dans ledit signal 
vocal a convertir, des trames voisees et des trames non voisees, ladite etape de 
transformation comprenant : 

- une sous-etape d'application de ladite fonction de 
5 transformation conjointe aux seules trames voisees dudit signal a convertir ; et 

- une sous-etape d'application de ladite fonction de 
transformation des seules caracteristiques d'enveloppe spectrale auxdites trames 
non voisees dudii signal a convertir ; 

- ladite etape de transformation comprend Papplication de ladite 
10 fonction de transformation conjointe aux caracteristiques acoustiques de toutes 

les trames dudit signal vocal a convertir ; 

- Ie procede comporte en outre une etape de synthese permettant 
de former un signal vocal converti a partir des dites informations acoustiques 
transformees. 

15 L'invention a egalement pour objet un systeme de conversion d'un 

signal vocal prononce par un locuteur source en un signal vocal converti dont les 
caracteristiques acoustiques ressemblent a celles d'un locuteur cible, 
comprenant : 

- des moyens de determination d'au moins une fonction de 
20 transformation des caracteristiques acoustiques du locuteur source en 

caracteristiques acoustiques proches du locuteur cible, a partir d'echantillons 
vocaux prononces par les locuteurs source et cible : et 

- des moyens de transformation des caracteristiques acoustiques 
du signal vocal a convertir du locuteur source par l'application de ladite au moins 

25 une fonction de transformation, 

caracterise en ce que lesdits moyens de determination d'au moins 
une fonction de transformation, comprennent une unite de determination d'une 
fonction de transformation conjointe de caracteristiques relatives a I'enveloppe 
spectrale et de caracteristiques relatives a la frequence fondamentale du locuteur 
30 source et en ce que lesdits moyens de transformation comportent des moyens 
d'application de ladite fonction de transformation conjointe. 

Selon d'autres caracteristiques de ce systeme : 

- il comporte en outre : 
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- des moyens d'anaiyse du signal vocal a convertir, adaptes pour 
delivrer en sortie des informations relatives a Tenveloppe spectrale et a la 
frequence fondamentale du signal vocal a convertir ; et 

- des moyens de synthese permettant de former un signal vocal 
5 converti a partir au moins desdites informations d'enveloppe spectrale et de 

frequence fondamentale transformees simultanement ; 

- lesdits moyens de determination d'au moins une fonction de 
transformation de caracteristiques acoustiques comportent en outre une unite de 
determination d'une fonction de transformation de Penveloppe spectrale des 

10 trames non voisees, ladite unite de determination de la fonction de transformation 
conjointe etant adaptee pour la determination de la fonction de transformation 
conjointe uniquement pour les trames voisees. 

L'invention sera mieux comprise a la lecture de la description qui va 
suivre, donnee uniquement a titre d'exemple et faite en se referant aux dessins 

15 annexes, sur lesquels : 

- les Figs. 1A et 1B forment un organigramme general d'un premier 
mode de realisation du precede de l'invention ; 

- les Figs. 2A et 2B forment un organigramme general d'un second 
mode de realisation du precede de l'invention ; 

20 - la Fig. 3 est un graphique representant un releve experimental des 

performances du procede de l'invention ; et 

- la Fig. 4 est un schema synoptique d'un systeme mettant en oeuvre 
un procede selon l'invention. 

La conversion de voix consiste a modifier le signal vocal d'un locuteur 
25 de reference appele locuteur source, de telle sorte que le signal produit semble 
avoir ete prononce par un autre locuteur, nomme locuteur cible. 

Un tel procede comporte tout d'abord la determination de fonctions de 
transformation de caracteristiques acoustiques ou prosodiques des signaux 
vocaux du locuteur source en caracteristiques acoustiques proches de celles des 
30 signaux vocaux du locuteur cible, a partir d'echantillons vocaux prononces par le 
locuteur source et le locuteur cible. 

Plus particulierement, la determination 1 de fonctions de 
transformation est realisee sur des bases de donnees d'echantillons vocaux 
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correspondant a la realisation acoustique de tnemes sequences phonetiques 
prononcees respectivement par les locuteurs source et cible. 

Cette determination est designee sur la figure 1A par la reference 
numerique generale 1 et est egalement couramment appelee « apprentissage ». 
5 Le procede comporte ensuite une transformation des caracteristiques 

acoustiques d'un signal vocal a convertir prononce par le locuteur source a I'aide 
de la ou des fonctions determinees precedemment. Cette transformation est 
designee par la reference numerique generale 2 sur la figure 1B. 

Le procede debute par des etapes 4X et 4Y d'analyse des echantillons 
10 vocaux prononces respectivement par les locuteurs source et cible. Ces etapes 
permettent de regrouper les echantillons par trames, afin d'obtenir pour chaque 
trame d'echantillons, des informations relatives a I'enveloppe spectrale et des 
informations relatives a la frequence fondamentale. 

Dans le mode de realisation decrit, les etapes 4X et 4Y d'analyse sont 
15 fondees sur ('utilisation d'un modele de signal sonore sous la forme d'une somme 
d'un signal harmonique avec un signal de bruit selon un modele communement 
appele "HNM" (en anglais : Harmonic plus Noise Model). 

Le modele HNM comprend la moderation de chaque trame de signal 
vocal en une partie harmonique representant la composante periodique du 
20 signal, constitute d'une somme de L sinusoTdes harmoniques d'amplitude Ai et 
de phase §\, et d'une partie bruitee representant le bruit de friction et la variation 
de Texcitation glottale. 

On peut ainsi ecrire : 

s(n)=h(n)+b(n) 

25 avec h(n)= 2^Ai(n)cos((|)i(n)) 

1=1 

Le terme h(n) represente done 1'approximation harmonique du signal 

s(n). 

En outre, le mode de realisation decrit est fonde sur une 
representation de I'enveloppe spectrale par le cepstre discret. 
30 Les etapes 4X et 4Y comportent des sous-etapes 8X et 8Y 

d'estimation pour chaque trame, de la frequence fondamentale, par exemple au 
moyen d'une methode d'autocorrelation. 
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Les sous-etapes 8X et 8Y sont chacune suivies d'une sous-etape 10X 
et 10Y cTanalyse synchronisee de chaque trame sur sa frequence fondamentale, 
qui permet d'estimer ies parametres de la partie harmonique ainsi que les 
parametres du bruit du signal et notamment la frequence maximale de 
5 voisement. En variante, cette frequence peut etre fixee arbitrairement ou etre 
estimee par d'autres moyens connus. 

Dans le mode de realisation decrit, cette analyse synchronisee 
correspond a la determination des parametres des harmoniques par minimisation 
d'un critere de moindres carres ponderes entre le signal complet et sa 
10 decomposition harmonique correspondant dans le mode de realisation decrit, au 
signal de bruit estime. Le critere note E est egal a : 

E= Xw 2 (n)(s(n)-h(n)) 2 

Dans cette equation w (n) est la fenetre d'analyse et T\ est la periode 
fondamentale de la trame courante. 
15 Ainsi, la fenetre d'analyse est centree autour de la marque de la 

periode fondamentale et a pour duree deux fois cette periode. 

En variante, ces analyses sont faites de maniere asynchrone avec un 
pas fixe d'analyse et une fenetre de taille fixe. 

Les etapes 4X et 4Y d'analyse comportent enfin des sous-etapes 12X 
20 et 12Y d'estimation des parametres de Tenveloppe spectrale des signaux en 
utilisant par exemple une methode de cepstre discret regularise et une 
transformation en echelle de Bark pour reproduire le plus fidelement possible les 
proprietes de I'oreille humaine. 

Ainsi, les etapes 4X et 4Y d'analyse delivrent respectivement pour les 
25 echantillons vocaux prononces par les locuteurs source et cible, pour chaque 
trame de rang n d'echantillons des signaux de parole, un scalaire note F n 
representant la frequence fondamentale et un vecteur note c n comprenant des 
informations d'enveloppe spectrale sous la forme d'une sequence de coefficients 
cepstraux. 

30 Le mode de calcul des coefficients cepstraux correspond a un mode 

operatoire connu de Petat de la technique et, pour cette raison, ne sera pas decrit 
plus en detail. 
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Avantageusement, les etapes 4X et 4Y d'analyse sont suivies chacune 
par une etape 14 X et 14Y de normalisation de la valeur de la frequence 
fondamentale de chaque trame par rapport respectivement aux frequences 
fondamentales des locuteurs source et cible afin de remplacer, pour chaque 
> trame d'echantillons vocaux, la valeur de la frequence fondamentale par une 
valeur de frequence fondamentale normalisee seion la formule suivante : 

r 



g = Fiog = log 



Fo 
F moy 
o 



Dans cette formule, F m ° y correspond aux moyennes des valeurs des 

frequences fondamentales sur chaque base de donnees analysee, soit sur la 
10 base de donnees d'echantillons vocaux du locuteur source et du locuteur cible. 

Cette normalisation permet de modifier, pour chaque locuteur, I'echelle 
de variations des scalaires de frequence fondamentale afin de la rendre 
coherente avec I'echelle des variations des coefficients cepstraux. Pour chaque 
trame n, on note g x (n) la frequence fondamentale normalisee pour le locuteur 
15 source et g y (n) celle du locuteur cible. 

Le procede de I'invention comporte ensuite des etapes 16X et 16Y de 
concatenation pour chaque locuteur source et cible, des informations 
d'enveloppe spectrale et de frequence fondamentale sous la forme d'un unique 
vecteur. 

20 Ainsi, I'etape 16X permet de definir pour chaque trame n un vecteur 

note x n regroupant les coefficients cepstraux c x (n) et la frequence fondamentale 
normalisee g x (n) selon ['equation suivante : 



= [c!( n ) J g x ( n )] 



Dans cette equation, T designe I'operateur de transposition. 
25 De maniere similaire, I'etape 16Y permet de former pour chaque trame 

n, un vecteur y n reprenant les coefficients cepstraux c y (n) et la frequence 
fondamentale normalisee g y (n) selon ['equation suivante : 



yn = [cy(n),g y (n)] r 
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Les etapes 16 X et 16Y sont suivies d'une etape 18 d'alignement entre 
le vecteur source x n et ie vecteur cible y n , de maniere a former un appariement 
entre ces vecteurs obtenu par un algorithme classique d'alignement temporel 
dynamique dit « DTW » (en anglais : Dynamic Time Warping). 
5 En variante, l'etape 18 d'alignement est mise en ceuvre uniquement a 

partir des coefficients cepstraux sans utiliser les informations de frequence 
fondamentale. 

L'etape 18 d'alignement delivre done un vecteur couple forme de 
couples de coefficients cepstraux et d'informations de frequence fondamentale 

10 des Iocuteurs source et cible, alignes temporellement. 

L'etape 18 d'alignement est suivie d'une etape 20 de determination 
d'un modele representant les caracteristiques acoustiques communes du 
locuteur source et du locuteur cible a partir des informations d'enveloppe 
spectrale et de frequence fondamentale de tous les echantillons analyses. 

15 Dans le mode de realisation decrit, il s'agit d'un modele probabiliste 

des caracteristiques acoustiques du locuteur cible et du locuteur source, selon un 
modele de melange de densites de probabilites gaussiennes, couramment note 
"GMM", dont les parametres sont estimes a partir des vecteurs source et cible 
contenant, pour chaque locuteur, la frequence fondamentale normalisee et le 

20 cepstre discret. 

De maniere classique, la densite de probability d'une variable aleatoire 
notee de maniere generale p(z), suivant un modele de melange de densites 
gaussiennes GMM s'ecrit mathematiquement de la maniere suivante : 

p(z)=2 a / x (^^ s /) 

Q 

25 avec ]Ta, = 1 , o<otj<1 

i=i 

Dans cette formule, Q designe le nombre de composantes du modele, 
N(z ; p is Si) est la densite de probability de la loi normale de moyenne pi et de 
matrice de covariance 2j et les coefficients a, sont les coefficients du melange. 

Ainsi, le coefficient cm correspond a la probability a priori que la 
30 variable aleatoire z soit generee par la f me composante gaussienne du melange. 
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De maniere plus particuliere, l'etape 20 de determination du modele 
comporte une sous-etape 22 de modeiisation de la densite jointe p(z) des 
vecteurs source note x et cible note y, de sorte que : 

[t t1 t 

Z n =L x n 'YnJ 

5 L'etape 20 comporte ensuite une sous-etape 24 d'estimation de 

parametres GMM (a, p, 2) de la densite p(z). Cette estimation peut etre realisee, 
par exemple, a I'aide d'un algorithme classique de type dit "EM" (Expectation - 
Maximisation), correspondant a une methode iterative conduisant a I'obtention 
d f un estimateur de maximum de vraisembiance entre les donnees des 

10 echantillons de parole et le modele de melange de gaussiennes. 

La determination des parametres initiaux du modele GMM est obtenue 
a I'aide d'une technique classique de quantification vectorielle. 

L'etape 20 de determination de modele delivre ainsi les parametres 
d'un melange de densites gaussiennes, representatif des caracteristiques 

15 acoustiques communes et en particulier d'enveloppe spectrale et de frequence 
fondamentale, des echantillons vocaux du locuteur source et du locuteur cible. 

Le procede comporte ensuite une etape 30 de determination, a partir 
du modele et des echantillons vocaux, d'une fonction conjointe de transformation 
de la frequence fondamentale et de I'enveloppe spectrale fournie par le cepstre, 

20 du signal du locuteur source vers le locuteur cible. 

Cette fonction de transformation est determinee a partir d'un 
estimateur de la realisation des caracteristiques acoustiques du locuteur cible 
etant donne les caracteristiques acoustiques du locuteur source, forme dans le 
mode de realisation decrit, par Pesperance conditionnelle. 

25 Pour cela, l'etape 30 comporte une sous-etape 32 de determination de 

Pesperance conditionnelle des caracteristiques acoustiques du locuteur cible 
sachant les informations caracteristiques acoustiques du locuteur source. 
L'esperance conditionnelle est notee F(x) et est determinee a partir des formules 
suivantes : 

30 F(x)=E[y I x]= £ h t (*)[> y + S y% (2 XX ) ^ (x-p J ] 

" izi i 
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Dans ces equations, hj(x) correspond a la probability a posteriori que 
le vecteur source x soit genere par la i eme composante du modele de melange de 
5 densites gaussiennes du modele. 

La determination de Pesperance conditionnelle permet ainsi d'obtenir 
la fonction de transformation conjointe des caracteristiques d'enveloppe spectrale 
et de frequence fondamentale entre le locuteur source et le locuteur cible. 

II apparaTt done que le precede d'analyse de Pinvention permet, a partir 
10 du modele et des echantillons vocaux, d'obtenir une fonction de transformation 
conjointe des caracteristiques acoustiques de frequence fondamentale et 
d'enveloppe spectrale. 

En reference a la figure 1B, le procede de conversion comporte 
ensuite la transformation 2 d'un signal vocal a convertir prononce par le locuteur 
15 source, lequel signal a convertir peut etre different des signaux vocaux utilises 
precedemment. 

Cette transformation 2 debute par une etape d'analyse 36 realisee, 
dans le mode de realisation decrit, a Paide d'une decomposition selon le modele 
HNM similaire a celles realisees dans les etapes 4X et 4Y decrites 
20 precedemment. Cette etape 36 permet de deiivrer des informations d'enveloppe 
spectrale sous la forme de coefficients cepstraux, des informations de frequence 
fondamentale ainsi que des informations de phase et de frequence maximale de 
voisement. 

L'etape 36 est suivie d'une etape 38 de formatage des caracteristiques 
25 acoustiques du signal a convertir par normalisation de la frequence fondamentale 
et concatenation avec les coefficients cepstraux afin de former un unique vecteur. 

Get unique vecteur est utilise lors d'une etape 40 de transformation 
des caracteristiques acoustiques du signal vocal a convertir par Papplication de la 
fonction de transformation determinee a l'etape 30, aux coefficients cepstraux du 
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signal a convertir definis lors de I'etape 36, ainsi qu'aux informations de 
frequence fondamentale. 

A Tissue de Petape 40, chaque frame d'echantillons du signal a 
convertir du locuteur source est ainsi associee a des informations d'enveloppe 
5 spectrale et de frequence fondamentale transformees simultanement, dont les 
caracteristiques sont similaires a celles des echantillons du locuteur cible. 

Le procede comporte ensuite une etape 42 de denormalisation des 
informations de frequence fondamentale transformees. 

Cette etape 42 permet de ramener les informations de frequence 
10 fondamentale transformees sur une echelle propre au locuteur cible selon 
1'equation suivante : 

K[F(x)} = F m °\y).e^(n)] 
o 

Dans cette equation F 0 [F(x)] correspond a la frequence fondamentale 
transformee denormalisee, F 0 moy (y) a la moyenne des valeurs des frequences 
15 fondamentales du locuteur cible et F[g x (n)] a la transformee de la frequence 
fondamentale normalisee du locuteur source. 

De maniere classique, le procede de conversion comporte ensuite une 
etape 44 de synthese du signal de sortie realisee, dans I'exemple decrit, par une 
synthese de type HNM qui delivre directement le signal vocal converti a partir des 
20 informations d'enveloppe spectrale et de frequence fondamentale transformees 
delivrees par I'etape 40 et des informations de phase et de frequence maximale 
de voisement delivrees par I'etape 36. 

Le procede de conversion mettant en oeuvre le procede d'analyse de 
['invention permet ainsi d'obtenir une conversion de voix realisant conjointement 
25 des modifications d'enveloppe spectrales et de frequence fondamentale, de 
maniere a obtenir un rendu auditif de bonne qualite. 

En reference a la figure 2A, on va maintenant decrire I'organigramme 
general d'un second mode de realisation du procede de invention. 

De meme que precedemment, ce procede comporte la determination 1 
30 de fonctions de transformation de caracteristiques acoustiques du locuteur 
source en caracteristiques acoustiques proches de celles du locuteur cible. 
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Cette determination 1 debute par la mise en oeuvre des etapes 4X et 
4Y d'analyse des echantillons vocaux prononces respectivement par le locuteur 
source et le locuteur cible. 

Ces etapes 4X et 4Y sont fondees sur Putilisation du modele HNM 
5 ainsi que cela a ete decrit precedemment et delivrent chacune un scalaire note 
F(n) representant la frequence fondamentale et un vecteur note c(n) comprenant 
des informations d'enveloppe spectrale sous la forme d'une sequence de 
coefficients cepstraux. 

Dans ce mode de realisation, ces etapes 4X et 4Y d'analyse sont 
10 suivies d'une etape 50 d'alignement des vecteurs de coefficients cepstraux issus 
de I'analyse des trames du locuteur source et des frames du locuteur cible. 

Cette etape 50 est mise en ceuvre par un algorithme tel que 
I'algorithme DTW, de maniere similaire a I'etape 18 du premier mode de 
- realisation. 

15 A Tissue de I'etape 50 d'alignement, le procede dispose d'un vecteur 

couple forme de couples de coefficients cepstraux du locuteur source et du 
locuteur cible, alignes temporellement. Ce vecteur couple est egalement associe 
aux informations de frequence fondamentale. 

L'etape 50 d'alignement est suivie d'une etape 54 de separation, dans 

20 le vecteur couple, des trames voisees et des trames non voisees. 

En effet, seules les trames voisees presentent une frequence 
fondamentale et un tri peut etre effectue en considerant si oui ou non des 
informations de frequence fondamentale existent pour chaque couple du vecteur 
couple. 

25 Cette etape de separation 54 permet ensuite de realiser la 

determination 56 d'une fonction de transformation conjointe des caracteristiques 
d'enveloppe spectrale et de frequence fondamentale des trames voisees et la 
determination 58 d'une fonction de transformation des seules caracteristiques 
d'enveloppe spectrale des trames non voisees. 

30 La determination 56 d'une fonction de transformation des trames 

voisees debute par des etapes 60X et 60Y de normalisation des informations de 
frequence fondamentale respectivement pour les locuteurs. source et cible. 

Ces etapes 60X et 60Y sont realisees de maniere similaire aux etapes 
14X et 14Y du premier mode de realisation et aboutissent a I'obtention, pour 
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chaque trame voisee, de la frequence normalisee pour le locuteur source notee 
g x (n) et de celle du locuteur cible notee g y (n). 

Ces etapes 60X et 60Y de normalisation sont suivies chacune d'une 
etape 62X et 62Y de concatenation des coefficients cepstraux c x et c y du locuteur 
5 source et du locuteur cible respectivement avec les frequences normaiisees g x et 

Ces etapes 62X et 62Y de concatenation sont realisees de maniere 
similaire aux etapes 16X et 16Y et permettent de delivrer un vecteur x n contenant 
des informations d'enveloppe spectrale et de frequence fondamentale pour les 
10 frames voisees du locuteur source et un vecteur y n contenant des informations 
d'enveloppe spectrale et de frequence fondamentale normaiisees pour les frames 
voisees du locuteur cible. 

De plus, I'alignement entre ces deux vecteurs est conserve tel 
qu'obtenu a Tissue de I'etape 50, les modifications survenues lors des etapes 
15 60X et 60Y de normalisation et 62X et 62Y de concatenation etant realisees 
directement a Tinterieur du vecteur delivre par I'etape 50 d'alignement. 

Le procede comporte ensuite une etape 70 de determination d'un 
modele representant les caracteristiques communes du locuteur source et du 
locuteur cible. 

20 A la difference de I'etape 20 decrite en reference a la figure 1A, cette 

etape 70 est mise en oeuvre a partir des informations de frequence fondamentale 
et d'enveloppe spectrale des seuls echantillons voises analyses. 

Dans ce mode de realisation, cette etape 70 est fondee sur un modele 
probabiliste selon un melange de densite gaussienne dit GMM. 

25 L'etape 70 comporte ainsi une sous-etape 72 de modelisation de la 

densite jointe entre les vecteurs X et Y realises de maniere similaire a la sous- 
etape 22 decrite precedemment. 

Cette sous-etape 72 est suivie d'une sous-etape 74 d'estimation des 
parametres GMM (a, ju et 2) de la densite p(z). 

30 De meme que dans le mode de realisation decrit precedemment, cette 

estimation est realisee a I'aide d'un algorithme de type « EM » permettant 
I'obtention d'un estimateur de maximum de vraisemblance entre les donnees des 
echantillons de paroles et le modele de melange de gaussienne. 
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L'etape 70 delivre done les parametres d'un melange de densites 
gaussiennes, representatif des caracteristiques acoustiques communes 
d'enveloppe spectrale et de frequence fondamentale des echantiilons vocaux 
voises du locuteur source et du locuteur cible. 
5 L'etape 70 est suivie d'une etape 80 de determination d'une fonction 

conjointe de transformation de la frequence fondamentale et de i'enveloppe 
spectrale des echantiilons vocaux voises du locuteur source vers le locuteur 
cible. 

Cette etape 80 est mise en oeuvre de maniere similaire a l'etape 30 du 
10 premier mode de realisation et en particulier comporte egalement une sous-etape 
82 de determination de I'esperance conditionnelle des caracteristiques 
acoustiques du locuteur cible sachant les caracteristiques acoustiques du 
locuteur source, cette sous-etape etant mise en oeuvre selon les memes formules 
que precedemment, appliquees aux seuls echantiilons voises. 
15 L'etape 80 aboutit ainsi a I'obtention d'une fonction de transformation 

conjointe des caracteristiques d'enveloppe spectrale et de frequence 
fondamentale entre le locuteur source et le locuteur cible, applicable aux trames 
voisees. 

Parallelement a la determination 56 de cette fonction de transformation 
20 des trames voisees, la determination 58 d'une fonction de transformation des 
seules caracteristiques d'enveloppe spectrale des trames non voisees est 
egalement mise en oeuvre. 

Dans le mode de realisation decrit, la determination 58 comporte une 
etape 90 de determination d'une fonction de filtrage definie de maniere globale 
25 sur les parametres d'enveloppe spectrale, a partir des couples de trames non 
voisees. 

Cette etape 90 est realisee de maniere classique par la determination 
d'un modele GMM ou encore de tout autre technique adaptee et connue. 

A Tissue de la determination 58, une fonction de transformation des 
30 caracteristiques d'enveloppe spectrale des trames non voisees est obtenue. 

En reference a la figure 2B, le procede comporte ensuite la 
transformation 2 des caracteristiques acoustiques d'un signal vocal a convertir. 
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De meme que dans le mode de realisation precedent, cette 
transformation 2 debute par une etape d'analyse 36 du signal vocal a convertir 
realisee selon un modele HNM et une etape 38 de formatage. 

Ainsi que cela a ete dit precedemment, ces etapes 36 et 38 permettent 
5 de delivrer, sous la forme d'un unique vecteur, les informations d'enveloppe 
spectrale et de frequence fondamentale normalises. De plus, Petape 36 delivre 
des informations de phase et de frequence maximale de voisement. 

Dans le mode de realisation decrit, Petape 38 est suivie d'une etape 
100 de separation, dans le signal a convertir analyse, des frames voisees et des 
10 frames non voisees. 

Cette separation est realisee a Paide d'un critere fonde sur la presence 
d'une information de frequence fondamentale non nulfe. 

L'etape 100 est suivie d'une etape 102 de transformation des 
caracteristiques acoustiques du signal vocal a convertir par Papplication des 
15 fonctions de transformation determinees lors des etapes 80 et 90. 

Pius particulierement, cette etape 102 comporte une sous-etape 104 
d'application de la fonction de transformation conjointe des informations 
d'enveloppe spectrale et de frequence fondamentale, determinee a Petape 80, 
aux seules trames voisees telles que separees a Pissue de Petape 100. 
20 Parallelement, Petape 102 comporte une sous-etape 106 d'application 

de la fonction de transformation des seules informations d'enveloppe spectrale, 
determinee a Petape 90, aux seules trames non voisees telles que separees lors 
de Petape 100. 

La sous-etape 104 delivre ainsi pour chaque trame d'echantillons 
25 voises du signal a convertir du locuteur source, des informations d'enveloppe 
spectrale et de frequence fondamentale transformees simultanement et dont les 
caracteristiques sont similaires a cell'es des echantillons voises du locuteur cible. 

La sous-etape 106 delivre quant a elle pour chaque trame 
d'echantillons non voises du signal a convertir du locuteur source, des 
30 informations d'enveloppe spectrale transformees dont les caracteristiques sont 
similaires a celies des echantillons non voises du locuteur cible. 

Dans le mode de realisation decrit, le procede comprend en outre une 
etape 108 de denormalisation des informations de frequence fondamentale 
■ transformees, mise en oeuvre sur les informations delivrees par la sous-etape 
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104 de transformation, d'une maniere similaire a I'etape 42 decrite en reference a 
la figure 1B. 

Le precede de conversion comporte ensuite une etape 110 de 
synthese du signal de sortie realisee, dans I'exemple decrit, par une synthese de 
5 type HNM qui delivre le signal vocal converti a partir des informations 
d'enveloppe spectrale et de frequence fondamentale transformees ainsi que des 
informations de phase et de frequence maximale de voisement pour les trames 
voisees et a partir des informations d'enveloppe spectrale transformees pour les 
trames non voisees. 

10 Le precede de (Invention permet done, dans ce mode de realisation, 

d'effectuer un traitement distinct sur les trames voisees et les trames non 
voisees, les trames voisees subissant une transformation simultanee des 
caracteristiques d'enveloppe spectrale et de frequence fondamentale et les 
trames non voisees subissant une transformation de leurs seules caracteristiques 

15 d'enveloppe spectrale. 

Un tel mode de realisation permet une transformation plus precise que 
le mode de realisation precedent tout en conservant une complexity limitee. 

L'efficacite d'un procede de conversion peut etre evaluee a partir 
d'echantillons vocaux identiques prononces par le locuteur source et le locuteur 

20 cible. 

Ainsi, le signal vocal prononce par le locuteur source est converti a 
. I'aide du procede de ['invention et la ressemblance du signal converti avec le 
signal prononce par le locuteur cible est evaluee. 

Par exemple, cette ressemblance est calculee sous la forme d'un 
25 rapport entre la distance acoustique separant le signal converti du signal cible et 
la distance acoustique separant le signal cible du signal source. 

La figure 3 represente un graphique de resultats obtenu dans le cas 
d'une conversion de voix d'homme en une voix de femme, les fonctions de 
transformation etant obtenues a partir de bases d'apprentissage contenant 
30 chacune 5 minutes de parole echantillonnees a 16 kHz, les vecteurs cepstraux 
utilises etant de taille 20 et le modele GMM etant a 64 composantes. 

Ce graphique represente en abscisse les numeros de trames et en 
ordonnee la frequence en hertz du signal. 
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Les resultats representes sont caracteristiques pour les trames 
voisees qui s'etendent approximativement des trames 20 a 85. 

Sur ce graphique, la courbe Cx represente les caracteristiques de 
frequence fondamentale du signal source et la courbe Cy celles du signal cible. 
5 La courbe Ci represente les caracteristiques de frequence 

fondamentale d'un signal obtenu par une conversion lineaire classique. 

II apparaTt que ce signal presente la meme forme generale que celle 
du signal source representee par la courbe Cx. 

A Finverse, la courbe C2 represente les caracteristiques de frequence 
10 fondamentale d'un signal converti a I'aide du procede de I'invention tel que decrit 
en reference aux figures 2A et 2B. 

II transparaTt de maniere flagrante que la courbe de frequence 
fondamentale du signal converti a I'aide du procede de I'invention presente une 
forme generale tres proche de la courbe de frequence fondamentale cible Cy. 
15 Sur la figure 4, on a represente un schema bloc fonctionnel d'un 

systeme de conversion de voix mettant en oeuvre le procede decrit en reference 
aux figures 2A et 2B. 

Ce systeme utilise en entree une base de donnees 120 d'echantillons 
vocaux prononces par le locuteur source et une base de donnees 122 contenant 
20 au moins les memes echantillons vocaux prononces par le locuteur cible. 

Ces deux bases de donnees sont utilisees par un module 124 de 
determination de fonctions de transformation de caracteristiques acoustiques du 
locuteur source en caracteristiques acoustiques du locuteur cible. 

Ce module 124 est adapte pour la mise en oeuvre des etapes 56 et 58 
25 du procede telles que decrites en reference a la figure 2 et permet done la 
determination d'une fonction de transformation de I'enveloppe spectrale des 
trames non voisees et d'une fonction de transformation conjointe de I'enveloppe 
spectrale et de la frequence fondamentale des trames voisees. 

De maniere generale, on considere que le module 124 comporte une 
30 unite 126 de determination de la fonction de transformation conjointe de 
I'enveloppe spectrale et de la frequence fondamentale des trames voisees et une 
unite 128 de determination de la fonction de transformation de I'enveloppe 
spectrale des trames non voisees. 
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Le systeme de conversion de voix regoit en entree un signal vocal 130 
correspondant a un signal de parole prononce par le locuteur source et destine a 
etre converti. 

Le signal 130 est introduit dans un module 132 d'analyse du signal, 
5 mettant en oeuvre, par exemple, une decomposition de type HNM permettant de 
dissocier des informations d'enveloppe spectrale du signal 130 sous ia forme de 
coefficients cepstraux et des informations de frequence fondamentale. Le module 
132 delivre egalement des informations de phase et de frequence maximale de 
voisement obtenues par Papplication du modele HNM. 
10 Le module 132 met done en oeuvre I'etape 36 du procede decrit 

precedemment et avantageusement I'etape 38. 

Eventuellement cette analyse peut etre faite au prealable et les 
informations sont stockees pour etre utilisees ulterieurement. 

Le systeme comporte ensuite un module 134 de separation des 
15 frames voisees et des trames non voisees dans le signal vocal a convertir 
analyse. 

Les trames voisees, separees par le module 134, sont transmises a un 
module 136 de transformation adapte pour appliquer la fonction de 
transformation conjointe determinee par I'unite 126. 
20 Ainsi, le module 136 de transformation met en oeuvre I'etape 104 

decrite en reference a la figure 2B. Avantageusement, le module 136 met 
egalement en oeuvre I'etape 108 de denormalisation. 

Les trames non voisees, separees par le module 134, sont transmises 
a un module 138 de transformation adapte pour appliquer la fonction de 
25 transformation determinee par I'unite 128 de maniere a transformer les 
coefficients cepstraux des trames non voisees. 

Ainsi, le module 138 de transformation des trames non voisees met en 
oeuvre I'etape 106 decrite a la figure 2B. 

Le systeme comporte egalement un module 140 de synthese recevant 
30 en entree, pour les trames voisees les informations d'enveloppe spectrale et de 
frequence fondamentale transformees conjointement et les informations de 
phase et de frequence maximale de voisement delivrees par le module 136. Le 
module 140 regoit egalement les coefficients cepstraux des trames non voisees 
■ transformes et delivres par le module 138. 
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Le module 140 met ainsi en oeuvre I'etape 110 du procede decrit en 
reference a la figure 2B et delivre un signal 150 correspondant au signal vocal 
130 du locuteur source mais dont les caracteristiques d'enveloppe spectrale et de 
frequence fondamentale ont ete modifiees afin d'etre similaires a celles du 
5 locuteur cible. 

Le systeme decrit peut etre mis en oeuvre de diverses manieres et 
notamment a I'aide des programmes informatiques adaptes et relies a des 
moyens materiels d'acquisition sonores. 

Dans le cadre de I'application du procede de ('invention, tel que decrit 
10 en reference aux figures 1 A et 1 B, le systeme comporte dans le module 124, une 
unique unite de determination d'une fonction de transformation conjointe de 
I'enveloppe spectrale et de la frequence fondamentale. 

Dans un tel mode de realisation, les modules 134 de separation et 138 
d'application de la fonction de transformation des trames non voisees, ne sont 
15 pas necessaires. 

Le module 136 permet done I'application de la seule fonction de 
transformation conjointe a toutes les trames du signal vocal a convertir et delivre 
les trames transformees au module 140 de synthese. 

De maniere generale, le systeme est adapte pour la mise en oeuvre de 
20 toutes les etapes des procedes decrits en reference aux figures 1 et 2. 

Dans tous les cas, le systeme peut egalement etre mis en oeuvre sur 
des bases de donnees determinees afin de former des bases de donnees de 
signaux convertis prets a etre utilises. 

Par exemple, ['analyse est faite en temps differe et les parametres de 
25 I'analyse HNM sont memorises en vue d'une utilisation ulterieure lors des etapes 
40 ou 100 par le module 134. 

Enfin, en fonction de la complexite des signaux et de la qualite 
souhaitee, le procede de 1'invention et le systeme correspondant peuvent etre 
mis en oeuvre en temps reel. 
30 Bien entendu d'autres modes de realisation que ceux decrits peuvent 

etre envisages. 

Notamment, les modeles HNM et GMM peuvent etre remplaces par 
d'autres techniques et modeles connus de I'homme de I'art. Par exemple, 
• I'analyse est realisee a I'aide de techniques dites LPC (Linear Predictive 
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Coding), de modeles sinusoTdaux ou MBE (Multi Band Excited), les parametres 
spectraux sont des parametres dits LSF (Line Spectrum Frequencies), ou encore 
des parametres lies aux formants ou a un signal glottique. En variante, le modele 
GMM est remplace par une quantification vectorielle (Fuzzy VQ.). 
5 En variante, I'estimateur mis en oeuvre lors de I'etape 30 est un critere 

de maximum a posteriori, dit "MAP" et correspondant a la realisation du calcul de 
I'esperance uniquement pour le modele representant le mieux le couple de 
vecteurs source-cibie. 

Dans une autre variante, la determination d'une fonction de 

10 transformation conjointe est realisee a I'aide d'une technique dite des moindres 
carres au lieu de I'estimation de la densite jointe decrite. 

Dans cette variante, la determination d'une fonction de transformation 
comprend ia modelisation de la densite de probability des vecteurs source a 
I'aide d'un modele GMM puis la determination des parametres du modele a I'aide 

15 d'un algorithme EM. La modelisation prend ainsi en compte des segments de 
parole du locuteur source dont les correspondants prononces par le locuteur cible 
ne sont pas disponibles. 

La determination comprend ensuite la minimisation d'un critere des 
moindres carres entre parametres cible et source pour obtenir la fonction de 

20 transformation. II est a noter que I'estimateur de cette fonction s'exprime toujours 
de la meme maniere mais que les parametres sont estimes differemment et que 
des donnees supplementaires sont prises en compte. 
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REVENDICATIONS 

1. Precede de conversion d'un signal vocal (130) prononce par un 
locuteur source en un signal vocal converti (150) dont les caracteristiques 
acoustiques ressemblent a celles d'un locuteur cible, comprenant : 
5 - la determination (1) d'au moins une fonction de transformation de 

caracteristiques acoustiques du locuteur source en caracteristiques acoustiques 
proches de celles du locuteur cible, a partir d'echantillons vocaux des locuteurs 
source et cible ; et 

- la transformation (2) de caracteristiques acoustiques du signal 
10 vocal a convertir (130) du locuteur source, par ['application de ladite au moins 

une fonction de transformation, 

caracterise en ce que ladite determination (1) comprend la 
determination (1; 56) d'une fonction de transformation conjointe de 
caracteristiques relatives a Penveloppe spectrale et de caracteristiques relatives a 
15 la frequence fondamentale du locuteur source et en ce que ladite transformation 
(2) comprend ['application de ladite fonction de transformation conjointe. 

2. Procede selon la revendication 1, caracterise en ce que ladite 
determination (1 ; 56) d'une fonction de transformation conjointe comprend : 

- une etape (4X, 4Y) d'analyse des echantillons vocaux des 
20 locuteurs source et cible regroupes en trames pour obtenir, pour chaque trame 

d'echantillons d'un locuteur, des informations relatives a I'enveloppe spectrale et 
a la frequence fondamentale ; 

- une etape (16X, 16Y; 62X, 62Y) de concatenation des 
informations relatives a I'enveloppe spectrale et a la frequence fondamentale 

25 pour chacuri des locuteurs source et cible ; 

- une etape (20 ; 70) de determination d'un modele representant 
des caracteristiques acoustiques communes des echantillons vocaux du locuteur 
source et du locuteur cible ; et 

- une etape (30 ; 80) de determination, a partir de ce modele et des 
30 echantillons vocaux, de ladite fonction de transformation conjointe. 

3. Procede selon la revendication 2, caracterise en ce que lesdites 
etapes d'analyse (4X,4Y) des echantillons vocaux des locuteurs source et cible 
sont adaptees pour delivrer lesdites informations relatives a i'enveloppe spectrale 
sous la forme de coefficients cepstraux. 
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4. Procede selon la revendication 2 ou 3, caracterise en ce que 
lesdites etapes (4X, 4Y) d'analyse comprennent chacune la modelisation des 
echantillons vocaux selon une somme d'un signal harmonique et d'un signal de 
bruit qui comprend : 

5 - une sous-etape (8X, 8Y) d'estimation de la frequence 

fondamentale des echantillons vocaux ; 

- une sous-etape (10X, 10Y) d f analyse synchronisee de chaque 
trame d'echantillons sur sa frequence fondamentale ; et 

- une sous-etape (12X, 12Y) d'estimation de parametres 
1 0 d'enveloppe spectrale de chaque trame d'echantillons. 

5. Procede selon Tune quelconque des revendications 2 a 4, 
caracterise en ce que ladite etape (20 ; 70) de determination d'un modele 
correspond a la determination d'un modele de melange de densites de 
probabilites gaussiennes. 

15 6. Procede selon la revendication 5, caracterise en ce que ladite 

etape de determination (20 ; 70) d'un modele comprend : 

- une sous-etape (22, 72) de determination d'un modele corres- 
pondant a un melange de densites de probabilites gaussiennes, et 

- une sous-etape (24, 74) d'estimation des parametres du melange 
20 de densites de probabilites gaussiennes a partir de ['estimation du maximum de 

vraisemblance entre les caracteristiques acoustiques des echantillons des 
locuteurs source et cible et le modele. 

7. Procede selon I'une quelconque des revendications 2 a 6,« 
caracterise en ce que ladite determination (1 : 56) d'au moins une fonction de 
25 transformation, comporte en outre une etape (14X, 14Y ; 60X, 60Y) de 
normalisation de la frequence fondamentale des frames d'echantillons des 
locuteurs source et cible respectivement par rapport aux moyennes des 
frequences fondamentales des echantillons analyses des locuteurs source et 
cible. 

30 8. Procede selon I'une quelconque des revendications 2 a 7, 

caracterise en ce qu'il comporte une etape (18 ; 50) d'alignement tempore! des 
caracteristiques acoustiques du locuteur source avec les caracteristiques 
acoustiques du locuteur cible, cette etape (18 ; 50) etant realisee avant ladite 
etape (20 ; 70) de determination d'un modele conjoint. 
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9. Procede selon Tune quelconque des revendications 1 a 8, 
caracterise en ce qu'il comporte une etape (54) de separation dans les 
echantillons vocaux du locuteur source et du locuteur cible, des trames a 
caractere voise et des trames a caractere non voise, ladite determination (56) 
5 d'une fonction de transformation conjointe des caracteristiques relatives a 
I'enveloppe spectrale et a la frequence fondamentale etant realisee uniquement a 
partir desdites trames voisees et le procede comportant une determination (58) 
d'une fonction de transformation des seules caracteristiques d'enveloppe 
spectrale uniquement a partir desdites trames non voisees. 
10 10. Procede selon Tune quelconque des revendications 1 a 8, 

caracterise en ce que ladite determination (1) d'au moins une fonction de 
transformation comprend uniquement ladite etape (1) de determination d'une 
fonction de transformation conjointe. 

11. Procede selon Tune quelconque des revendications 1 a 10, 
15 caracterise en ce que ladite determination (1 ; 56) d'une fonction de 

transformation conjointe est realisee a partir d'un estimateur de la realisation des 
caracteristiques acoustiques du locuteur cible sachant les caracteristiques 
acoustiques du locuteur source. 

12. Procede selon la revendication 11, caracterise en ce que ledit 
20 estimateur est forme de I'esperance conditionnelle de la realisation des 

caracteristiques acoustiques du locuteur cible sachant la realisation des 
caracteristiques acoustiques du locuteur source. 

13. Procede selon Tune quelconque des revendications 1 a 12, 
caracterise en ce que ladite transformation (2) de caracteristiques acoustiques du 

25 signal vocal a convertir (130), comporte : 

- une etape (36) d'analyse de ce signal vocal (130), regroupe en 
trames pour obtenir, pour chaque trame d'echantillons, des informations relatives 
a I'enveloppe spectrale et a la frequence fondamentale ; 

- une etape (38) de formatage des informations acoustiques 
30 relatives a I'enveloppe spectrale et a la frequence fondamentale du signal vocal a 

convertir ; et. 

- une etape (40 ; 102) de transformation des informations 
acoustiques formatees du signal vocal a convertir (130) a I'aide de ladite fonction 

. de transformation conjointe. 
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14. Procede selon les revendications 9 et 13 prises ensemble, 
caracterise en ce qu'il comporte une etape (100) de separation, dans ledit signal 
vocal a convertir (130), des trames voisees et des trames non voisees, ladite 
etape de transformation comprenant : 

5 - une sous-etape (104) duplication de ladite fonction de 

transformation conjointe aux seules trames voisees dudit signal a convertir 
(130) ; et 

- une sous-etape (106) d'application de ladite fonction de 
transformation des seules caracteristiques d'enveloppe spectraie auxdites trames 

10 non voisees dudit signal a convertir (130). 

15. Procede selon les revendications 10 et 13 prises ensemble, 
caracterise en ce que ladite etape de transformation comprend Implication de 
ladite fonction de transformation conjointe aux caracteristiques acoustiques de 
toutes les trames dudit signal vocal a convertir (130). 

15 16. Procede selon Tune quelconque des revendications 1 a 15, 

caracterise en ce qu'il comporte en outre une etape (44 ; 110) de synthese 
permettant de former un signal vocal converti (150) a partir des dites informations 
acoustiques transformers. 

17. Systeme de conversion d'un signal vocal (130) prononce par un 

20 locuteur source en un signal vocal converti (150) dont les caracteristiques 
acoustiques ressemblent a celles d'un locuteur cible, comprenant : 

- des moyens (124) de determination d'au moins une fonction de 
transformation des caracteristiques acoustiques du locuteur source en 
caracteristiques acoustiques proches du locuteur cible, a partir d'echantillons 

25 vocaux prononces par les locuteurs source et cible : et 

- des moyens (136, 138) de transformation des caracteristiques 
acoustiques du signal vocal a convertir (130) du locuteur source par ('application 
de ladite au moins une fonction de transformation, 

caracterise en ce que lesdits moyens (124) de determination d'au 
30 moins une fonction de transformation, comprennent une unite (126) de 
determination d'une fonction de transformation conjointe de caracteristiques 
relatives a I'enveloppe spectraie et de caracteristiques relatives a la frequence 
fondamentale du locuteur source et en ce que lesdits moyens de transformation 
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comportent des moyens (136) d'application de ladite fonction de transformation 
conjointe. 

18. Systeme selon la revendication 17, caracterise en ce qu'il 
comporte en outre : 

5 - des moyens (132) d'analyse du signal vocal a convertir (130), 

adaptes pour delivrer en sortie des informations relatives a I'enveloppe spectrale 
et a la frequence fondamentale du signal vocal a convertir (130) ; et 

- des moyens (140) de synthese permettant de former un signal 
vocal converti a partir au moins desdites informations d'enveloppe spectrale et de 
1 0 frequence fondamentale transformees simultanement. 

19. Systeme selon Tune quelconque des revendications 17 et 18, 
caracterise en ce que lesdits moyens (124) de determination d'au moins une 
fonction de transformation de caracteristiques acoustiques comportent en outre 
une unite (128) de determination d'une fonction de transformation de I'enveloppe 

15 spectrale des trames non voisees, ladite unite (126) de determination de la f 
fonction de transformation conjointe etant adaptee pour la determination de la 
fonction de transformation conjointe uniquement pour les trames voisees. 
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